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摘要 : [ 目的/ 意义] 针对 目前 从 开源 网 络 信 息 中 采集 网 络 臣 师 信 息 难 采集 效率 低 的 问题 ,提出 一 种 回归 
分 析 法 ,以 综合 语义 相关 与 网 页 重要 性 两 个 因素 ,从 而 提高 网 络 秋 怖 信息 的 采集 效率 。 [ 方法 过程] 通过 分 析 、 
比较 主题 疏 吕 的 特性 ,结合 网 络 恐 怖 信息 的 特点 , 找 出 PageRank 算法 和 TF-IDF 算法 中 适用 于 鸡 怖 信息 采集 的 
优点 ,并 结合 回归 分 析 法 ,将 丽 怖 信息 的 采集 策略 进行 相关 度 预 测 ,用 预测 结果 反馈 调节 信息 的 采集 过 程 。[ 结 
果 / 结 论 ] 网 络 恶 怖 信息 采集 要 兼顾 采集 的 数量 和 质量 ,在 传统 主题 朴 虫 算法 的 基础 上 进行 改进 ,提出 针对 于 开 
源 网 络 恶 怖 信息 采集 的 爬 束 优化 算法 ,可 以 提高 信息 采集 效率 。 
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语义 相似 度 


GOS 网 络 空间 与 恐怖 主义 相 结 合 的 概念 最 早 由 美国 加 
州 慎 报 与 安全 资深 研究 员 B. Coins 于 1997 提出 ,他 认 
湖 网 络 恐 怖 主义 是 网 络 与 丸 怖 主义 相 结 合 的 产物 号 。 
如 殉 大 数据 时 代 背 景 下 ,人 们 主要 的 信息 来 源 是 网 络 ， 
网 络 恺 怖 主义 也 利用 互联 网 时 代 的 便捷 性 不 断 发 展 。 
恺 剧 分 子 们 通过 互联 网 来 发 布 一 些 网 络 恐 怖 信息 ,一 
方面 造成 社会 丸 慌 , 另 一 方面 通过 互联 网 发 布 秃 怖 活 
动 重 组 织 策划 信息 ,为 一 场 恐 怖 活动 的 发 生 提 供 先 决 
的 入 息 条 件 。 李 本 先 等 认为 从 互联 网 方面 击 退 恐怖 主 
义 忽 网 络 反恐 研究 的 重要 方向 呈 。 李 欧 认 为 网 络 反 恺 
的 特性 一 一 网 络 技术 的 脆弱 性 ,网 络 活动 的 隐蔽 性 ,网 
络 资源 的 丰富 性 和 开放 性 ,网 络 普及 性 和 广泛 性 ,让 小 
怖 分 子 得 以 利用 ,成 为 恐怖 分 子 开展 恐怖 活动 的 “第 二 
战场 "1 。 

随 着 信息 化 时 代 的 快速 发 展 ,当前 网 络 恐 怖 主义 
呈现 全 球 化 ,国际 性 恐怖 主义 组 织 与 地 区 性 恐怖 主义 
组 织 紧密 相连 ” 。 在 2016 年 乌镇 举行 的 第 三 届 世 界 
互联 网 大 会 的 “网 络 反 疏 论坛 ”上 就 提出 加 强国 际 间 
的 合作 .联手 打击 网 络 恐 怖 主义 "。 虽 然 网 络 反 玖 得 


到 志 界 各 国 的 重视 ,但 恐怖 组 织 战术 越 来 越 灵活 多 变 ， 
行动 能 力 越 来 越 专 业 化 ,组 织 越 来 越 信息 化 ””。 面 对 
新 特点 ,网 络 安全 工作 者 和 反 恕 相关 部 门 想 在 茫茫 的 
数据 海洋 中 搜集 恐怖 信息 数据 的 需求 愈加 强烈 。 网 络 
反 臣 数据 的 收集 是 网 络 反 臣 的 基础 ,定制 特异 性 的 重 
直 搜 索引 警 技术 是 网 络 恐 怖 信息 采集 的 关键 。 在 对 
反 汐 领域 的 相关 文献 研究 的 基础 上 ,本 文 从 定性 和 定 
量 两 个 角度 ,将 网 络 恕 怖 信息 特征 总 结 为 数字 化 特征 
和 本 质 特征 两 大 类 ,如 图 1 所 示 ,并 在 原 有 的 主题 怜 虫 
算法 上 进行 改良 ,提出 针对 网 络 反 朴 数 据 采集 的 特异 
性 主题 怜 虫 。 

恺 怖 信息 的 纵向 特点 是 用 来 量化 处 理 和 判别 
网 络 恐 怖 信息 可 信和 度 的 要 素 , 称 之 为 数字 化 特征 ， 
可 以 用 算法 量化 计算 ,横向 是 用 来 形容 网 络 恐怖 信 
息 的 抽象 特征 ,只 能 根据 经 验 人 为 的 进行 判定 , 称 
之 为 本 质 特 征 。 本 文 针 对 网 络 恐 怖 信息 的 数字 化 
特征 提出 回归 分 析 模 型 将 各 个 恐怖 相关 因素 逐渐 
适应 到 一 条 曲线 上 ,综合 判断 网 络 灵 ， 怖 信息 的 各 项 
特征 ,从 而 提高 主题 仆 虫 对 网 络 恐 怖 信息 的 采集 精 
度 。 
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图 1 网 络 恐 怖 信息 的 纵横 图 


2 ”主题 候 虫 与 算法 回顾 


主题 候 虫 (FocusedCrawler ) 是 专门 用 来 搜集 互联 
网 七 具有 特定 主题 文档 信息 的 智能 主体 ,能 自动 地 在 
互 职 网 上 搜索 代行 ,并 将 搜集 的 主题 信息 返回 给 服务 


吕 济 。 主 题 他 虫 的 工作 流程 图 如 图 2 所 示 : 
CD 
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日 | 初始 URL 集 


URL 队列 


满足 停止 条 件 ? 


保存 网 页 


网 页 主题 相关 分 析 


主题 相关 度 判 刚 
式 记 型 大 于 最 低 阔 值 


.下 于 最 低 赣 值 


2 主题 疏 虫 的 工作 流程 


主题 爬虫 采集 网 络 信息 的 关键 在 于 如 何 精确 地 分 
析 网 页 内 容 与 主题 之 间 的 相关 程度 ,以 及 使 用 怎样 的 
采集 策略 才能 使 采集 过 程 更 加 高 效 及 时 。 主 题 候 虫 算 
法 研究 分 为 两 类 :一 类 是 基于 链接 结构 ”, 一 类 是 基于 
内 容 评 价 ”。 前 者 的 代表 算法 是 PageRank 算法 ,后 者 
的 代表 有 TF-IDF 算法 。 

基于 链接 结构 的 网 页 评价 算法 中 ,代表 的 是 Pag- 
eRank 算法 ,其 中 杨 彬 等 提出 基于 概念 的 权重 PageR- 
ank 改进 算法 , 林 泓 等 基于 用 户 点 击 网 页 内 的 各 个 
链接 的 概率 不 等 的 情况 下 提出 对 PageRank 改进 算法 ， 
从 而 避免 主题 漂移 现象 ”, 何 明 等 提出 语义 相似 的 
PageRank 改进 算法 , 王 钟 斐 等 提出 基于 锚 文本 相似 
度 的 PageRank 改进 算法 ” ,王建 雄 在 传统 PageRank 
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算法 的 基础 上 进行 改进 ,通过 计算 超 链接 与 领域 向 量 
的 相似 度 来 抑制 主题 漂移 ,引入 时 间 因 子 以 及 站 内 外 
区 分 因子 来 提高 与 主题 相关 URL 的 权重 ,从 而 提高 信 
息 采 集 效率 55 , 王 冲 等 提出 基于 用 户 兴趣 与 主题 相关 
的 PageRank 改进 算法 。PageRank 算法 是 主题 疏 虫 
算法 的 核心 ,被 应 用 于 用 户 特 定 主题 的 垂直 搜索 引擎 
中 ,能 够 较 好 地 决定 采集 策略 ,但 是 PageRank 算法 以 
及 目前 对 其 改进 的 算法 中 ,都 是 根据 用 户 访 问 的 特定 
主题 信息 的 网 络 信 息 " ,基于 此 对 网 络 中 的 链接 的 重 
要 性 进行 调整 ,如 杨 彬 和 林 泓 从 用 户 浏览 网 页 的 角度 ， 
对 网 页 中 URL 队列 的 权重 进行 调整 达到 优化 疏 行 策 
略 的 目的 ,J，M. Maestre 等 将 PageRank 应 用 于 对 目标 
群体 的 联合 控制 中 必 ; ,但 网 络 铠 怖 信息 页 面 并 不 是 大 
众 用 户 频 繁 访问 的 页 面 ,因此 不 能 简单 通过 链接 的 点 
击 量 和 访问 量 及 链 人 、 链 出 网 页 的 数量 来 确定 网 页 的 
重要 性 ,甚至 网 页 链接 数量 相对 多 的 网 页 与 网 络 恐 怖 
无 关 的 几率 更 大 ,因为 网 络 臣 怖 信息 的 特性 就 是 隐秘 
性 强 , 它 不 同 于 传统 搜索 引擎 搜索 的 并 按照 受 欢迎 度 
进行 排序 的 网 页 ,所 以 网 页 受 欢 迎 度 并 不 能 作为 评判 
网 页 恐怖 主题 的 关键 指标 。 

在 网 络 主题 候 虫 搜索 策略 的 算法 研究 中 ,除了 上 
述 的 基于 PageRank 改进 的 链接 评价 外 , 主题 朴 虫 算法 
中 男 一 类 是 对 网 页 中 内 容 进 行 评价 ,代表 算法 有 TF - 
IDF 算法 。 路 永和 等 将 TW 与 TF-IDF 结合 作为 新 的 特 
征 权重 算法 , 王 景 中 等 将 正则 表达 式 和 语义 分 析 技 
术 相 结合 ,从 而 实现 对 TF -IDF 算法 的 改进 ” 。 在 对 
网 页 内 容 与 主题 进行 评价 上 ,改进 的 TF-IDF 充分 利用 
原 网 页 中 的 标签 . 描 文 本 .过 滤 虚 词 的 方式 来 充分 调整 
对 网 页 中 关键 词 赋予 权重 的 值 ,从 而 比较 精确 地 判断 
网 页 与 主题 的 相关 性 。 但 网 络 和 怖 信息 的 特点 是 主题 
模糊 ,内 容 杂 乱 和 分 散 , 信 息 的 不 确定 性 较 大 , 目前 改 
进 的 TFJIDF 算法 不 能 很 好 地 利用 网 页 链接 之 间 的 相 
互 关系 ,从 而 不 能 很 好 地 对 椒 怖 主题 相关 的 网 页 做 一 
个 关联 性 判定 ,不 能 按照 网 络 恐 怖 信息 的 关联 性 进行 


面 对 传 统 主题 念 虫 算法 所 存在 的 偏激 问题 ,本 文 
结合 改进 的 PageRank 算法 和 改进 的 TF-IDF 算法 提出 
回归 分 析 预 测 模型 。 由 于 判断 网 络 信息 是 否 与 臣 怖 相 
关 不 能 仅 由 一 个 或 几 个 主题 关键 词 来 判别 ,更 不 能 只 
根据 网 页 链接 数 和 点 击 量 来 决定 ,而 是 要 通过 一 定 的 
分 析 将 这 些 相关 因素 有 机 结合 起 来 才能 够 提高 网 络 榴 
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怖 信息 采集 的 质量 和 效率 ,本 文 吸 收 了 基于 本 体 的 网 
络 群体 性 事件 主题 发 现 模型 的 方法 ” ,建立 自己 的 网 
络 本 体 恐 怖 信息 库 ,从 而 充分 利用 已 经 采集 的 网 络 恐 
怖 信息 数据 ,为 回归 性 分 析 网 络 恕 怖 信息 提供 数据 依 
据 。 

传统 的 主题 息 虫 系统 需要 事先 提供 一 定数 量 的 初 
始 URL 和 主题 词 ,初始 URL 是 为 解析 得 到 其 它 的 网 页 
页 面 ,并 提取 网 页 中 二 级 乃至 多 级 的 URL 从 而 形成 初 
始 URL 队列 ,循环 上 述 过 程 得 到 待 候 取 的 URL 库 ,而 
主题 词 用 于 判断 仆 取 的 文本 与 主题 的 相关 性 ,但 是 选 
取 一 些 质量 高 .能够 比较 全 面 地 描述 网 络 臣 怖 信息 的 
主题 关键 词 就 显得 十 分 困难 。 本 文 提 出 使 用 回归 分 析 


中 的 关键 词 和 链接 数 为 该 条 恺 怖 关键 词 的 标签 。@) 通 
过 恐 怖 关键 词 与 涉 称 URL 回归 ,设置 回归 分 析 偏 移 量 
来 控制 每 次 网 络 恐 怖 信息 采集 关键 词 的 数量 ,为 主题 
疏 虫 提供 关键 词 和 初始 URL 队列 。 外 由 初始 URL 解 
析 到 对 应 的 网 页 ,由 采集 模块 采集 网 页 的 内 容 , 由 分 析 
模块 分 析出 网 页 的 主题 关键 词 的 个 数 和 URL 链接 及 
其 它 网 页 信息 。@@ 通 过 鸭 忆 网 页 信息 相似 性 回归 ,将 
采集 的 网 页 按照 一 定 规则 进行 解析 ,把 恐怖 信息 相关 
的 因素 通过 回归 函数 回归 到 一 条 曲线 上 ,根据 与 权威 
慌 怖 信息 网 页 的 拟 合 优 度 的 高 低 来 选择 网 络 恐 怖 信息 
采集 的 优先 次 序 。@ 通 过 回归 分 析 把 拟 合 优 度 高 的 网 
页 中 的 关键 词 和 网 页 链接 数 以 及 其 它 因素 存储 到 网 络 
本 体 恕 怖 信息 库 中 , 拟 合 优 度 较 低 的 但 在 设 定 最 低 阔 
值 内 的 铠 怖 信息 网 页 经 过 人 工 审核 的 方式 添加 到 网 络 
慌 怖 信息 库 中 ,为 下 次 回归 分 析 采 集 提供 参考 。 回 归 
分 析 主 题 怜 虫 结构 图 如 图 3 所 示 : 
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于 网 页 评价 的 重要 算法 ,其 最 显著 的 特点 就 在 于 在 
Web 链接 方面 十 分 客观 地 反映 网 页 的 重要 程度 1 , 原 
理 在 于 其 网 页 通过 链接 “投票 ” ,得 出 网 页 人 链接 与 出 
链接 的 情况 ,衡量 其 “链接 流行 度 ” , 即 对 于 某 个 网 页 
节点 来 说 , 链 入 的 网 页 数量 越 大 ,说 明 此 网 页 重要 性 越 
大 。 网 页 重要 程度 通过 PR 值 量化 表现 ,PR 值 区 间 为 
[0,10] ,PR 值 越 大 表明 其 越 受 欢 迎 ” 。 

对 于 某 个 涉 铠 网 页 M 来 说 ,PageRank 算法 对 它 遵 
循 两 个 假设 

(1) 数 量 假设 :如 果 涉 恐 网 页 M 链 入 的 铠 怖 网 页 
的 链接 越 多 及 关联 性 强 , 则 表示 其 影响 大 ,重要 性 高 。 
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涉 恐 信息 主题 爬虫 结构 


4 ”回归 分 析 
4.1 改进 PageRank 算法 
网 络 反 息 信息 采集 过 程 中 可 以 量化 的 有 关联 性 和 
综合 性 两 大 特征 ,而 这 两 大 特征 可 以 采用 改进 的 Pag- 
eRank 算法 来 度量 。PageRank 算法 作为 Google 公司 对 


(2) 质 量 假 设 :网 络 铠 忆 信 息 越 重 要 的 网 页 给 予 
的 坝 怖 权重 高 ,如 果 有 其 它 网 页 对 其 进行 链接 ,其 重要 
程度 相对 来 说 越 高 。 

设 有 网 页 工 工 ,E，…, 对 网 页 M 有 链 入 ,第 i 个 
网 页 的 总 链接 数 为 L(i) ,根据 网 页 对 链接 的 权重 分 配 
来 计算 ,网 页 M 的 PR 值 如 式 (1) 所 示 : 


PR(1) PR(L) PR(L) 
PM eT TD 

+ PR(1,) 、 

站 式 (1) 


同时 由 于 存在 不 链 入 任何 其 他 链接 的 网 页 ,也 叫 
做 “ 死 链接 ”, 使 得 公式 出 现 错误 , 故 添 加 阻尼 系数 
( damping factor ) d 对 公式 进行 修正 , d 一 般 取 值 
0.85 ” 。 随 机 冲浪 模型 也 证 实 阻尼 系数 的 用 处 ,表示 
一 个 网 页 漫游 者 不 会 一 直 点 击 一 个 链接 , 而 会 随机 的 
跳 转 到 其 他 网 页 ,保证 网 页 对 于 每 个 链 出 的 链接 权重 
分 配 平 均 。 修 改 后 如 式 (2) 所 示 : 
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PR(M)=(1-d)+d( Ti + es + TW = logCHI; i 式 (5) 
PR(L ) PR(LI ) ， i 为 恐怖 信息 的 特征 项 ,CHI 为 该 恐怖 特征 项 的 
TO TL) 到 人) c 本 值 ,B 为 包含 i 但 不 属于 该 类 的 涉 亚 文本 数 ,C 为 


4.2 ”改进 TF JDF 

语义 分 析 是 主题 相关 度 分 析 的 重要 因素 ,单独 对 
网 页 重要 性 分 析 时 不 会 考虑 主题 词 是 否 与 网 页 内 容 相 
匹配 , 故 可 能 出 现 “ 主 题 漂移 ”现象 。 本 文采 用 TF-IDF 
这 种 语义 分 析 算 法 通过 对 网 页 文本 内 容 进 行 特 征 词 分 
析 , 通 过 网 络 恐 怖 特征 词 的 分 布 情况 对 网 页 进行 主题 
相关 度 计算 。TF -IDF 算法 在 创始 之 初 存在 着 一 定 的 
缺陷 ,Z. H. Deng 等 ”提出 的 替代 的 CRF( category rel- 
evance factors) , 赵 小 华 ' 等 提出 的 运用 特征 选择 修正 
函数 权重 的 TF -IDF -CHI 算法 均 对 初始 算法 进行 一 定 
的 殉 进 。 
在 此 基础 上 王 景 中 等 ”提出 的 改进 TF_IDF 算法 
跨 拍 出 对 于 特征 词 内 的 关键 字 赋 予 权 重 是 非常 重要 
和 内 为 在 特征 词 中 作出 贡献 的 关键 字 可 能 存在 “的 ” 
“ 呢 ? 等 虚词 ,使 得 权重 赋予 无 意义 , 故 需要 剔除 虚词 ， 
建 字 与 非 关键 字 进 行 不 同 的 权重 赋予 。 在 锚 文 
le 和 meta 等 标签 中 特征 词 占 比例 很 高 “1 ,考虑 
到 -DB 述 标签 单一 出 现 贡献 度 会 出 现 转移 ,采用 评价 加 
模 宰 累积 计算 的 方法 得 出 权重 公式 如 式 (3) 所 示 : 
Frm) 式 (9) 
(Om(i) 是 第 i 个 标签 的 权重 数值 ,Tv(k) 指 第 k 个 
词 量 平均 累加 权重 数值 ,Z;-om(i) 表示 第 k 个 词 在 所 
在 陆 签 的 累加 权重 , Mim(j) 表示 在 整个 页 面包 含 的 
上 述 标签 的 权 值 总 和 。 根 据 以 往 对 网 络 恐 怖 信息 的 研 
究 得 到 比较 合理 的 标签 权 值 函数 m(i) 如 式 (4) 所 


一 [27] 


不 


Tu(k) 


10 ,title 

. 8 ,meta 

0 eg 

3, 其 他 

路 永和 等 '” 针 对 特征 词 在 文本 类 别 内 与 类 别 之 

间 的 分 布 情况 ,提出 对 于 特征 词 与 文档 类 别 ,不 包含 该 

特征 词 但 是 属于 该 类 的 文档 数 C 与 包含 该 特征 词 但 是 

不 属于 该 类 的 文档 数 B ,加 上 党 用 的 特征 选择 评估 画 

数 卡 方 值 CHI ,总 结 出 C 越 小 ,B 越 小 ,说 明 类 内 分 布 

越 均 匀 分 散 ,而 类 间 分 布 情况 高 度 聚 集 ,那么 此 特征 项 

的 特征 权重 数值 就 越 大 。 得 出 这 种 权重 如 式 (5 ) 所 
不 : 


式 (4) 
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不 包含 ii 但 属于 该 类 的 涉 疏 文本 数 。 由 于 网 络 刀 怖 信 
息 的 模糊 性 和 隐秘 性 对 于 某 些 恕 怖 信息 特征 项 ,B; x 
C; 可 能 为 0, 故 加 入 一 个 相对 于 B; x Ci 较 小 的 常数 入 
得 出 权重 公式 如 式 (6) 所 示 : 


TW = logCHI; x 


llog(B, x C, + 和) | 式 (6) 

最 后 基于 特征 词 中 的 关键 字 贡 献 度 和 文档 类 别 间 
的 分 布 关系 得 出 如 下 计算 语义 相关 度 的 综合 TF -IDF 
公式 如 式 (7) 所 示 ": 

Wi = TW x Tu OK) xlogtf xidf = TW x Tr 
(k) xlog(g + N/n,) 式 (7) 

Wi 表示 包含 第 i 个 恐怖 特征 词 的 第 k 篇 涉 怒 文档 
的 权重 ,TW 表 示 对 于 涉 恐 文档 类 别 间 疏 怖 特征 词 分 
布 情况 的 项 修正 权重 ,T,(k) 表示 第 k 篇 文档 的 关键 
字 权 重 ,N 表示 文档 总 数 ,nk 表示 含有 特征 词 的 文档 
数 。 由 于 涉 恐 网 络 恐 怖 信息 的 文本 长 度 不 同 , 涉 疏 文 
本 长 度 长 的 恐怖 关键 词 的 权 值 会 偏 大 ,为 了 解决 这 个 
问题 ,通过 取 对 数 logtfi. x idfi. = log(e + N/n ) 的 方式 
进行 一 种 标准 化 ,减少 因 文本 过 长 导致 权重 偏 大 所 带 
来 的 影响 。 
4.3 了 恐 怖 关键 词 与 涉 恐 URL 回归 

主题 仆 虫 的 工作 原理 是 对 种 子 URL 集合 进行 解 
析 , 并 提取 对 应 的 URL 队列 ,下 载 URL 队列 对 应 的 页 
面 ,解析 页 面 所 包含 的 一 系列 URL 并 对 URL 集合 进行 
扩展 。 每 次 爬虫 循环 都 会 形成 下 一 次 采集 的 URL 集 
合 ,因此 URL 对 于 主题 怜 虫 信息 采集 的 效率 及 质量 有 
比较 大 的 影响 。 
回归 分 析 法 核心 是 由 初始 URL 扩展 到 其 它 URL 
时 ,其 它 URL 所 对 应 的 网 页 内 容 与 主题 的 相关 程度 与 
最 初 的 URL 所 对 应 的 与 主题 的 相关 程度 线性 相关 。 
简单 说 就 是 主题 相关 度 越 高 的 网 页 ,其 内 包含 的 Web 
链接 内 含有 的 的 网 页 内 容 与 主题 的 相关 性 也 要 更 高 一 
些 。 基 于 这 种 思想 本 文 先 将 初始 的 URL 进行 解析 , 提 
取出 其 中 的 URL 和 网 页 中 的 词汇 ,并 建立 索引 URL 的 
单 向 索引 和 关键 词 的 多 重 索 引 。 噜 除 掉 重 复 关键 词 中 
的 虚词 等 重复 率 高 但 与 主题 明显 偏离 的 词汇 , 制 成 主 
题词 汇 表 , 再 引入 PageRank 算法 中 URL 的 重要 性 PR 
(M) ,将 剔除 后 的 关键 词 表 标 号 ,与 URL 重要 性 PR 
(MD) 建立 对 应 关系 如 图 4 所 示 : 
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黄 炜 , 张 展 程 ， 朱 彬 , 等 .基于 回归 分 析 的 网 络 恐 怖 信息 主题 朴 虫 [J. 图 书 情报 工作 ,2018,62(4) :121 - 129. 


关键 字 1 关键 字 2 关键 字 3 


[PROD], [PROD), [PROD], [PROMD], ee 


4 URL 重要 性 建立 关系 图 


BP; 三 {[PR(M)], 十 [PRCM)]， 十 [PR(M)] 十 
| *p+ce” Wi 式 (8) 
式 (8) 表示 该 次 采集 过 程 中 每 个 关键 词 在 众多 
URL 中 与 主题 重要 程度 。P, 表示 的 是 第 一 个 主题 关 
键 字 的 重要 程度 ,[PR(M) ] | 是 关键 词 在 网 页 j 中 所 对 
应 的 重要 性 ,Wi 是 TF-IDF 算法 中 关键 词 的 累计 权重 ， 
p 和 c 是 参数 ,用 来 调节 两 个 变量 之 间 的 关系 。 
志 通过 上 述 方法 ,将 URL 的 重要 性 或 者 说 是 受 欢迎 
程 摩 这 个 因素 引入 到 主题 关键 词 对 网 页 与 主题 相关 性 
的 评估 上 ,就 能 够 对 那些 在 抓 取 内 容 中 出 现 次 数 少 但 
与 韦 题 相关 度 高 和 在 仆 取 内 容 中 出 现 次 数 高 但 与 主题 
梓 江 度 低 的 关键 词 赋予 了 一 定 的 权重 ,对 不 同 重要 性 
的 鸿 键 词 所 对 待 的 程度 也 不 一 样 ,从 而 提高 关键 词 对 
内 容 的 考核 精度 。 
ON 将 网 页 包含 所 有 关键 词 的 重要 程度 为 记 为 X,X = 
pi, 将 网 页 的 重要 程度 记 为 Y,Y = PR(M),, 如 式 
(9 所 示 : 
xs 8§，; 


《68 = >xy-n' yxy>y[yYx&sup2 -n'. (>x) 
&Ap2 ] ; 
SA= zy-B Fxn; 式 (9) 


〇 济 行 相关 性 回归 性 分 析 , 这 就 是 回归 分 析 2 模块 
图 。 回 归 分 析 得 到 的 回归 线 如 图 5 所 示 : 


可 归 预 测 URL 队列 


令 回归 预测 主题 疏 虫 


URL 重要 度 


一 一 线性 (回归 预测 主题 


主题 相关 度 
图 $ 主题 回归 预测 主题 怜 虫 
再 作 两 条 直线 分 别 为 式 (10) 和 式 (11) 所 示 : 
Yl=(A+tv)x+B+§; 式 (10) 
Y2=(Aw)x+B+§; 式 (11) 
A 和 B 为 待定 参数 ,A 为 回归 直线 的 截 距 ;B 代表 


回归 直线 的 斜率 ,表现 Y 随 X 每 单位 变化 时 的 平均 变 
化 情况 ; $ 代表 以 用 户 满意 度 为 参考 因素 的 随机 误差 
值 。 

Q 代表 最 低 主 题 相关 度 ;V 代表 的 是 容 差 值 。Q 
和 V 为 主题 息 虫 事先 需要 定义 的 两 个 阐 值 用 来 调节 和 
控制 仆 取 的 URL 范围 ,Q 是 保证 页 面 内 容 与 主题 相关 
度 的 参数 ,V 是 可 允许 的 最 大 URL 与 主题 的 不 相关 
度 。 爬 虫 工作 时 只 需 怜 取 Q 与 YL 和 Y2 所 围 成 的 区 
域 , 噜 除 掉 这 个 区 域 以 外 的 URL ,将 剩 下 的 URL 作为 
URL 集合 投入 到 下 一 轮 的 循环 中 ,如 图 3 涉 恐 信息 主 
题 仆 虫 结构 图 中 恺 怖 关键 词 与 涉 奴 URL 回归 模块 中 
当 V=0.25 的 时 ,几乎 圳 括 所 有 涉 铠 URL ,通过 这 样 一 
种 方式 将 会 大 大 减少 URL 的 数量 ,提高 URL 队列 的 质 
量 , 减 小 了 主题 仆 虫 的 工作 负担 ,提高 系统 的 运行 效 
4.4 丽 怖 网 页 信息 相似 性 回归 

网 络 铠 怖 信息 存在 时 效 性 \ 分 散 性 等 特点 ,依据 网 
络 涉 恐 信息 中 可 能 存在 的 这 些 潜 藏 的 特性 ,本 文通 过 
建立 一 条 风 辑 曲线 将 同 网 页 中 用 来 判别 怒 怖 信息 的 各 
种 因素 如 :关键 词 链接 数 、 出 现时 间 \ 访 问 量 等 因素 组 
合 起 来 如 公式 (12) 所 示 。 

Z=Bo+B: pi1+B, ps + +B. pr 式 (12) 

式 中 B, 被 称 为 回归 参数 ,9 是 各 个 恺 怖 影响 因 
素 。 回 归 分 析 一 开始 ,是 人 工 根据 经 验 或 期 望 对 p; 的 
值 进行 设 定 , 其 值 大 小 如 HITS 算法 中 的 权重 一 样 。 随 
着 候 取 内 容 的 不 断 增多 ,将 从 网 络 上 扑 取 下 来 的 涉 鸭 
信息 进行 去 重 , 降 噪 处 理 之 后 ,将 这 一 类 网 络 恐 怖 信息 
网 页 对 q; 进行 打分 ,按照 分 数 大 小 对 9; 进行 调整 。 

将 式 (13) 通 过 回归 函数 如 公式 (13) 所 示 。 


> 1 
0 
0 e+l e “+l 


式 (13) 
函数 图 如 图 6 所 示 : 


6 ”相似 性 特征 回归 


该 算法 回归 模型 的 特点 是 变量 的 范围 是 从 --% 到 
+ % ,但 是 值 域 的 范围 是 在 (0 - 1) 之 间 , 这 样 就 将 多 
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个 臣 怖 因素 转化 成 一 个 概率 来 判断 网 络 恐 怖 信息 的 相 
关 性 。 将 (Bu,B,,B: ,Bu 按照 赋予 了 网 页 链接 数 的 
主题 关键 词 的 P, 来 归 为 一 类 ,每 次 获取 一 个 新 的 网 页 
时 :QD 将 网 页 中 的 词语 与 链接 按照 网 页 模块 提取 出 来 。 
@) 将 每 一 个 网 页 模块 中 的 P 值 算 出 ,去 数据 库 中 匹配 
到 主 关键 词 下 对 应 的 P 了 值 。@) 将 数据 库 中 该 了 值 标签 
下 的 一 组 (Bo ,Bi,B;,…,B) 作 为 该 网 页 中 关键 信息 的 
参数 ,用 来 计算 Z 值 ,根据 f(z) 所 对 应 的 (0 -1) 上 的 
值 来 判断 网 页 怒 怖 信息 程度 。 

对 于 某 个 网 页 模块 中 可 能 缺少 关键 信息 9, 的 这 
种 情况 ,首先 在 计算 时 先 将 原 有 的 数据 库 中 的 p' 补充 
上 去 ,后 再 减 去 缺失 这 部 分 恐 怖 因素 与 log,$ (误差 值 
与 容错 值 的 对 数 ) ,以 降低 因 缺 失 某 部 分 网 络 钨 怖 因素 
对 回归 分 析 判 别 网 络 悉 怖 信息 可 信和 度 程度 。 最 后 计算 


的 公式 变 成 公式 (15) : 


Zz 


之-1Bi 中 
log, § 


式 (14) 


Bo +Bi pi+B P+" + BB Pp: — 


实验 结果 分 析 与 评估 
为 了 验证 引入 回归 分 析 改 进 的 主题 仆 忠 算法 在 让 
取 网 络 开源 铠 怖 信息 上 的 有 效 性 ,实验 将 改进 的 语义 
醒 侧 PageRank 算法 ,改进 的 TF-IDF 算法 与 回归 分 析 
算 泪 进行 对 比分 析 来 证 明 引 入 回归 分 析 算 法 的 主题 疏 
研 形 开 网 络 恺 怖 信息 的 优越 性 。 
5. 外 实验 设计 
"三 为 了 验证 上 述 改进 算法 的 优势 之 处 ,采集 2 000 条 
文 夯 作为 实验 的 数据 源 ,其 中 1 000 条 文本 为 是 通过 
网 络 恐 怖 信息 采集 系统 采集 的 ,经 过 部 分 人 工 筛选 , 确 
定 的 恐怖 信息 文本 ,另外 1 000 条 文本 为 通用 抱 虫 采 
集 的 普通 网 络 文本 信息 ,但 在 每 篇 普通 文本 中 随机 位 
置 写 入 网 络 恺 怖 词 库 中 的 恺 怖 关键 词 , 进 而 构成 忍 怖 
信息 文本 的 实验 样本 。 
5.2 反恐 词 库 建立 

反 钨 词 库 的 建立 是 回归 分 析 中 最 重要 的 一 点 ,将 
词 库 中 的 铠 怖 主义 相关 的 词汇 与 链接 建立 对 应 关系 ， 
才能 进一步 将 新 的 网 页 与 词 库 的 词汇 和 标签 建立 关 
系 ,通过 词 库 与 标签 来 开展 恐怖 信息 回归 分 析 , 从 而 判 
断 网 页 与 恐怖 主题 的 相关 程度 。 将 疏 取 的 10 000 条 
网 络 恐 怖 信息 数据 经 过 人 工分 析 , 建立 一 张 100 条 铠 
怖 主题 信息 词 库 表 , 表 的 部 分 如 表 1 所 示 。 表 中 首 字 
母 A.B、C 等 是 丽 怖 信息 词 的 类 别 , 词 库 类 别 是 按照 记 
的 属性 进行 分 类 , 比如 地 点 名 词 .事件 名 词 \ 恐 怖 主义 
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代号 .暗语 等 。 字 母后 面 的 数字 表示 的 是 其 序号 ,序号 
的 位 数 越 多 表明 这 个 词 库 的 重要 性 越 高 ,所 对 应 的 权 


重 相对 来 说 也 越 高 。 
表 1 网 络 恐 怖 信息 部 分 词 表 

编号 主题 词 累计 频数 被 链接 数 标签 p 
A001 非 律 宾 达 沃 64 10 菲律宾 达 沃 外 
A002 莫 赫 曼 德 特区 56 5 左 赫 曼 德 特区 3 
A003 叙利亚 78 5 叙利亚 人 8 
A004 伊 德 利 58 11 伊 德 利 下 癌 
A005 ”索马里 极端 组 织 18 13 索马里 极端 组 织 拓 
A0076 迈 杜 古 里 62 7 迈 杜 古 里 免 
A007 巴基斯坦 24 42 巴基斯坦 莽 
A008 伊拉克 46 58 伊拉克 斩 
A009 仇 斯 兰 国 118 19 伊斯兰 国 操 
A010 圣诞 市 集 9 13 圣诞 市 集 $ 
A014 教堂 11 19 教堂 所 
B001 风暴 22 37 果断 风暴 多 
B002 人 质 动 持 137 14 人 质 劫持 亏 
B003 装甲 车 214 28 装甲 车 好 
B004 空袭 32 8 空袭 


词 表 的 建立 过 程 如 图 7 所 示 : 


恶 丽 证 科 辐 瑟 

分 析 

委 | 齐 到 重 、 和 休克 | 
恺 怖 语料库 玉 - 一 ”| 丽 怖 词语 库 ”计算 We 


Raman ae WW 
二 二 阅 值 内 
民生 外 站 | 


图 7 反恐 词 库 建立 流程 图 


实验 过 程 如 下 : 

(1) 通 过 回归 分 析 对 慌 怖 信息 词 库 进行 分 词 、 降 
噪 处 理 。 

(2) 根据 词 库 中 词 库 进 行 语义 相似 度 计算 和 判 
重 , 将 相同 词 的 信息 添加 到 原 有 词 库 中 ,新 的 恐怖 信息 
词 库 进 行 语 义 相 似 度 计 算 。 

(3) 与 词 库 中 已 有 词 库 进行 相关 度 计算 , 把 计算 
后 的 结果 与 定义 的 (0,0. 85 ) 的 阔 值 进行 对 比 , 相 关 度 
在 (0.85 ,1) 表 示 与 词 库 中 词 库 语义 相关 度 高 , 则 直接 
添加 到 词 库 中 ,如 果 相 关 度 在 (0,0. 85 ) 表示 与 词 库 中 
词 相关 度 不 是 很 高 , 则 进行 人 工 判 断 ,将 人 工 判 断 和 分 
析 后 的 人 恕 怖 信息 词 加 入 到 四 怖 信息 最 终 的 词 库 中 。 

通过 对 网 络 芍 怖 信息 的 搜集 与 整理 发 现 , 网 络 息 
怖 信息 的 产生 发 展 和 演变 是 存在 一 定 规律 的 ,您 怖 信 
息 潜藏 在 网 络 中 都 会 按照 其 关键 词 和 链接 为 标签 式 的 
网 络 状 分 布 ,所 以 本 文 提出 建立 娩 怖 信息 词 表 , 词 表 的 
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黄 炜 , 张 展 程 ， 朱 彬 ,等 .基于 回归 分 析 的 网 络 恶 怖 信息 主题 朴 虫 [J]. 图 书 情报 工作 ,2018 ,62(4) :121 - 129. 


建立 是 与 知 网 人 物 关 系 图 相似 的 网 络 图 ,按照 重要 文 
本 中 包含 的 词 库 的 个 数 和 链接 数 以 及 被 链接 数 , 将 不 
同 的 词 库 分 为 不 同 层次 ,如 图 8 所 示 : 


田 市 ”泰国 灰 狠 
菲律宾 
网 络 反 疏 
连环 国 ne 
全 卡 伊 达 
大 马 士 革 
洛杉矶 
wa 名 
叛乱 分 子 地 铁 三 宝 颜 
车 用 
地 Ey 汽车 
Ra 七 
莫斯科 本 


图 8 网 络 反 了 恐 词 库 关 系 图 


中 图 中 一 个 圆圈 代表 一 个 关键 词 ， 中 出 现 的 数 
RR 示 该 关键 词 对 应 的 历史 网 络 恐 怖 信息 文档 数 , 连 
线 则 示 的 是 丽 怖 信息 关键 词 之 问 的 关系 ,被 链接 的 数 
量 同 应 在 表 1 中。 网络 恐怖 信息 词 表 的 建立 是 基于 图 
1 销 折 示 网 络 恐 怖 信息 数字 化 特征 中 的 关联 性 和 分 散 
二 对 网 络 恐 怖 信息 的 主题 词 URL .本 体内 容 建立 对 
应 闫 系 ,一 方面 可 以 为 后 续 分 析 网 络 恐 怖 信息 特点 , 针 
允 阅 络 恐 怖 信息 做 出 网 络 反 惑 措施 , 另 一 方面 也 为 下 
一 锡 网 络 恐 怖 信息 的 采集 提供 理 数据 参考 和 线索 指 
时 5 提高 下 一 次 网 络 恐 怖 信息 的 采集 效率 。 
Sr 全 查 全 率 与 查 准确 率 

主题 网 络 公 虫 常用 的 性 能 判断 指标 为 查 准 率 和 查 
全 率 。 查 准 率 公式 为 P = K/N,K 为 抓 取 的 与 主题 相关 
的 页 面 数量 ,N 为 抓 取 到 的 全 部 页 面 数 。 查 全 率 又 叫 召 
回 率 ,计算 公式 为 :R = K/R,R 为 网 络 中 存在 的 所 有 与 
主题 相关 的 页 面 数 。 为 了 保证 2 000 条 测试 数据 源 能 
被 有 效 利用 ,实验 选取 各 类 恺 怖 文本 信息 以 及 非 铠 怖 文 
本 信息 中 具有 较 大 链 出 数量 的 有 代表 性 的 URL 作为 采 
集 的 初始 URL ,关键 词 为 网 络 反恐 词 库 中 已 经 建立 的 关 
键 词 , 最 终 将 2 000 条 包含 恐怖 信息 的 文本 经 过 三 个 末 
虫 算法 进行 估 取 并 比较 得 到 实验 结果 , 见 表 2。 

表 2 中 PageRank 链接 的 相关 阔 值 为 
0.3,Af(z)V(0.2) 中 Af(z) 表示 的 是 丽 怖 网 页 信息 相 
似 性 回归 中 ,实际 涉 恐 网 络 恐怖 信息 f(z) 的 值 与 标准 
网 络 恐 怖 信息 f(z)。 的 绝对 值 , 即 Af(z) =1f(z) -上 
(z),1。V 表示 的 是 恐怖 关键 词 与 涉 忍 URL 回归 中 回 


384V1 


表 2 慌 虫 算法 实验 结果 对 比 


怜 虫 类 型 查 全 率 查 准确 率 
通用 扑 虫 81% 61% 
基于 PageRank 算法 76% 58% 
回归 分 析 算 法 Af(z)V =0.05 65% 91% 
Af(z)V =0.15 78% 87% 
Af(z)V =0.2 82% 85% 
Af(z)V =0.225 90% 71% 


归 预 测 URL 队列 的 容 差 值 ,这 里 V 的 值 恒 为 0.25,V 
值 的 选取 依赖 于 初始 URL 的 质量 和 词 库 中 涉 榴 词 库 
与 初始 URL 对 应 的 数量 。 由 表 中 可 见 Af(z)V(0.2) 
的 选取 很 重要 , 当 其 值 在 0.2 左右 ,也 就 是 V=0.25， 
Af(z) =0.8 的 时 候 , 查 全 率 和 查 准 确 率 都 有 较 好 的 表 
现 , 相 比 于 通用 礁 虫 以 及 基于 PageRank 算法 的 疏 虫 ， 
采用 回归 分 析 算法 的 朴 虫 算法 能 够 很 大 程度 提高 同类 
网 络 恐 怖 信息 采集 的 准确 率 ,避免 育 目 在 海量 网 络 数 
据 中 进行 采集 ,提高 了 信息 采集 的 效率 。 表 2 所 对 应 
的 折线 图 如 图 9 所 示 : 


一 9 一 查 全 率 
= 加 一 查 准 确 率 


~ 


No 


2 


入 格外 
和 岂 RAR 
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图 9 主题 疏 虫 算法 查 全 率 与 查 准 确 率 对 比 图 


5.4 讨论 与 分 析 

从 图 9 中 可 以 看 出 :中 本 文 提出 的 基于 PageRank 
算法 和 TF-IDF 算法 的 回归 分 析 算 法 能 够 很 好 地 提高 
对 网 络 中 具有 特性 恕 怖 信息 网 页 的 爬 取 效 率 , 查 准确 
率 确实 有 很 大 的 提高 。@) 在 采用 回归 分 析 爬 虫 的 过 程 
中 ,发现 改变 Af(z)V 对 结果 有 较 大 的 影响 。 由 回归 分 
析 息 忠 1 可 知 , 增 大 Af(z) 能 够 让 新 采集 的 网 络 您 怖 
言 息 与 旧 的 网 络 铠 怖 信息 有 较 高 的 相似 性 和 关联 性 ， 
但 是 会 降低 网 络 恐 怖 信息 采集 的 数量 中 由 回归 分 析 2 
到 回归 分 析 3 的 这 段 折 线 看 出 ,适当 增 大 Af(z) 值 能 
够 在 查 准确 率 降低 比较 小 的 时 候 提 高 查 全 率 ,本 文 称 
这 个 时 候 为 均衡 期 ,一般 为 了 避免 漏网 之 鱼 ,选取 Af 
(z) 的 值 应 在 均衡 期 末期 ,以 达到 候 取 所 有 与 隶 怖 信息 
文本 特性 相同 的 文本 类 信息 的 目的 。Af(z) 经 过 调整 
以 后 ,能 够 充分 体现 到 慌 怖 信息 文本 间 的 差异 与 特性 ， 
将 不 同类 型 的 芍 怖 信息 文本 进行 相似 度 比 对 ,让 主题 
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疏 虫 针对 性 的 采集 网 络 恐 怖 信息 , 提 
文本 挖掘 的 效率 。 


6 结语 


高 网 络 恐 怖 信息 


随 着 网 络 信息 化 时 代 的 到 来 ,网 络 信息 呈现 爆炸 
式 增长 。 恐 怖 分 子 乘机 通过 互联 网 传播 丽 怖 组 织 信息 
或 丽 怖 舆论 信息 ,对 国家 和 社会 造成 巨大 威胁 ,如 何 从 
海量 的 开源 的 网 络 信息 中 搜集 到 与 恐怖 分 子 相 关 的 有 
用 信息 ,并 将 这 些 信息 进行 分 析 并 对 网 络 恐 怖 事件 进 
行 预防 和 制止 是 目前 有 待 解决 的 问题 。 本 文 利用 回归 
算法 的 候 虫 系统 能 够 从 海量 的 网 络 信 息 中 息 取 到 有 价 
值 的 网 络 恐 怖 信息 ,为 反恐 工作 提供 情报 和 依据 。 该 
算法 是 基于 已 有 的 PageRank 和 HITS 核心 算法 以 及 主 
题 疏 虫 策略 的 综合 运用 ,使 不 相关 的 算法 变量 ,通过 
归 价 析 预 测 ,将 若干 因素 进行 融合 转化 成 为 概率 ,从 而 
找到 丽 怖 信息 相互 之 问 的 联系 ,设置 一定 大 小 的 国 值 
基 历 选 出 网 络 恐 帆 信 息 ,达到 提高 信息 的 采集 效率 的 
时 隔 。 该 算法 的 不 足 之 处 在 于 两 种 算法 的 同时 使 用 和 
图 寻 分 析 算法 的 结合 使 得 算法 过 于 宛 杂 ,实际 执行 速 
度 加 ,对 硬件 的 要 求 较 高 。 如 何 对 算法 进行 优化 ,提高 
Ca 步 要 攻克 的 难 
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